iT邦幫忙

2021 iThome 鐵人賽

DAY 7
0
自我挑戰組

30天淺談機器學習系列 第 7

Day7:K-means分析

  • 分享至 

  • xImage
  •  

  K-means的中文有人稱作集群分析,但是主要都還是講英文,比較容易懂。
  這分析方法跟KNN很像,但是不同在於KNN是監督式學習,K-means是非監督式學習。監督與非監督的差別,前者是已經給了一些基本架構,從這基本架構中去學習,後者則沒有,要自己找出資料中的規則,再來判斷未知的數據。舉例來說,如果今天操場上聚集很多人,監督式學習則會先把男女區分開來,教你什麼是男性、女性,這時候如果有人突然加入群組,則可以透過基本規則去定義他是男是女。然而非監督式學習則都不會說,要你自己去判斷,將男女分開來,但是能透過其他人一次次的加入,使得群組有更好的歸類,但有缺點就是可能會在一開始的分類的就出錯,比如長得很像男生的女生,可能會不小心歸類為男性,而導致會有些規則上的問題。
  K-meas採非監督式學習,給予機器資料之後,另外在定義有幾個族群,這樣就可以了。採取方式是,會先定義每個資料,根據有幾個族群暫定幾個中心點,計算每個點到中心點的距離再進行歸類,接著調整中心點,再計算各點距離如何,直到中心點位置不變,則訓練完畢。
  舉例來說,若以得知以下的資料:
https://ithelp.ithome.com.tw/upload/images/20210917/201407223MQaC3qfTW.png
  假設有兩個族群,令這兩個族群的中心點個別在c1(1,1)以及c2(1,2),經過計算中心點和各別點的距離後,結果如下:
https://ithelp.ithome.com.tw/upload/images/20210917/20140722uNuAM6wdvE.png
  根據計算結果,歸類在距離較小的那一類,若相同則隨便,因此先將A歸類為c1,BCD歸類為c2。另外c1座標維持不變,c2座標更正為(4,3),接著再計算這點的距離:
https://ithelp.ithome.com.tw/upload/images/20210917/201407221zsogmjfcT.png
  根據計算結果,B要歸類在c1,其餘不變。因此c1座標改為(1.5,1.5),c2座標改為(5,3.5),再次計算:
https://ithelp.ithome.com.tw/upload/images/20210917/201407222dvsgO0iM1.png
  會發現結果不變,因此AB為一群,CD為一群。


上一篇
Day6:最鄰近點規則(k-Nearest Neighbor,KNN
下一篇
Day8:原來機器學習這個詞跟我想的不太一樣
系列文
30天淺談機器學習13
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言